AI 不再只會「讀文字」,現在的模型能夠處理 文字 (Text)、影像 (Image)、語音 (Audio)、影片 (Video),甚至跨模態整合。這就是 多模態 AI。
多模態的應用場景非常廣:
📄 智慧客服:語音輸入 → AI 轉文字 → 生成回答 → 語音輸出
🖼️ 影像分析:上傳圖片,讓 AI 自動標註物件或產生描述
🎙️ 會議助理:即時語音轉錄,再結合 LLM 摘要會議重點
📊 數據輔助:讀取文件 + 圖表,給出完整決策建議
今天我們看看 Azure AI Foundry 與 GCP Vertex AI 的多模態能力。
1️⃣ Azure AI Foundry 的多模態功能
語音 (Speech)
語音轉文字 (Speech to Text, STT)
文字轉語音 (Text to Speech, TTS),支援多語言、情緒化語音
即時翻譯 (Real-time translation)
影像 (Vision)
圖像分析:物件偵測、人臉識別、場景分類
OCR(文字辨識):從圖片擷取文字
與 OpenAI GPT-4V 整合 → 能看圖回答問題
文件 (Document Intelligence)
自動擷取 PDF、發票、合約資訊
節省人工輸入時間
2️⃣ GCP Vertex AI 的多模態功能
語音 (Speech AI)
Cloud Speech-to-Text:高精度語音轉文字
Cloud Text-to-Speech:自然語音輸出,支援 WaveNet 聲音
影像 (Vision AI)
AutoML Vision:自動訓練影像分類模型
Vision API:物件偵測、Logo 辨識、場景理解
Generative AI Studio:支援 Imagen 模型,生成圖片
影片 (Video AI)
Video Intelligence API:標註影片中的物件與場景
可用於內容審查或媒體管理
多模態模型
Gemini 系列模型 → 可處理文字、圖片、程式碼多模態輸入
適合進行跨領域應用(例如:圖片 + 文件 + 提問)
3️⃣ 多模態應用實例
Azure 案例
建立智慧客服:語音輸入 → Azure Speech 辨識 → GPT 回答 → Azure TTS 回覆
文件管理:PDF → Document Intelligence 抽取 → 存進資料庫
GCP 案例
圖片自動分類:用 AutoML Vision 訓練產品分類模型
行銷創意:透過 Imagen 生成廣告圖片,再搭配 Vertex AI 提供文字文案
4️⃣ 多模態帶來的挑戰
⚠️ 效能要求更高:影像與語音模型需要更多 GPU 資源
⚠️ 資料隱私:語音、影像中常含有個人資訊,需加強保護
⚠️ 多模態融合難度:如何讓不同資料類型協同處理,是一大挑戰
5️⃣ 小結
今天我們學到:
Azure AI Foundry 與 Vertex AI 都支援語音、影像、文件處理
Azure 偏重在 企業流程導向(文件、客服、流程自動化)
GCP 偏重在 模型創新與多模態生成(Imagen、Gemini)
多模態能讓 AI 從「對話助手」進化為「全能數位助理」